视觉提示新突破 | IDEA研究院发布T-Rex模型,解锁 「一图胜千言」的Prompting新体验
在刚刚结束的2023 IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了基于视觉提示的目标检测新体验,并发布了全新视觉提示模型T-Rex的模型实验室(playground), Interactive Visual Prompt(iVP),掀起现场一波试玩小高潮。(前往 https://deepdataspace.com/playground/ivp 亲自试玩)
在iVP上,用户可以亲自解锁“一图胜千言”的 Prompting:在图片上标记感兴趣的对象,向模型提供视觉示例,模型随即检测出目标图片中与之相似的所有实例。整套流程交互便捷,只需几步操作就可轻松完成。
· 多轮正例模式:适用于视觉提示不够精准造成漏检的场景
· 正例+负例模式: 适用于视觉提示带有二义性造成误检的场景
· 跨图模式:适用于通过单张参考图提示检测他图的场景
在同期发布的技术报告中,团队总结了T-Rex模型的四大特性:
开放集:不受预定义类别限制,具有检测一切物体的能力
视觉提示:利用视觉示例指定检测目标,克服罕见、复杂物体难以用文字充分表达的问题,提高提示效率
直观的视觉反馈:提供边界框等直观视觉反馈,帮助用户高效评估检测结果
交互性:用户可通过便捷交互,积极参与检测过程,对模型结果进行纠错
iVP 模型实验室:https://deepdataspace.com/playground/ivp(可点击阅读原文跳转)
报告链接: https://arxiv.org/abs/2311.13596
Github链接:trex-counting.github.io
本项工作来自IDEA研究院计算机视觉与机器人研究中心(CVR)。该团队此前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型。在Github上大火的零样本检测器Grounding DINO与能够检测、分割一切的Grounded SAM,同样为该团队作品。
彩蛋
T-Rex,来自于“Tyrannosaurus Rex”的缩写,中文名为霸王龙,也是CVR团队DINO恐龙系列工作的延伸。一个关于霸王龙的冷知识:经过科学家的研究,霸王龙是各种恐龙中视力最好的,是人的视力的13倍,甚至比鹰的视力还好(鹰的视力只是人的3.6倍)。
T-Rex模型的Logo是一只刚破壳而出的可爱小霸王龙,寓意着T-Rex模型刚刚诞生,但有着巨大的发展潜力,有朝一日将进化得更加强大。
关于 IDEA研究院CVR
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和DeepData Space数据平台。